Fechar

@MastersThesis{Velame:2020:ObDeCa,
               author = "Velame, Vict{\'o}ria Maria Gomes",
                title = "Object detection from captive balloon imagery using deep 
                         learning",
               school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
                 year = "2020",
              address = "S{\~a}o Jos{\'e} dos Campos",
                month = "2020-04-02",
             keywords = "object detection, deep learning, convolutional neural network, 
                         remote sensing, captive balloons, detec{\c{c}}{\~a}o de objetos, 
                         aprendizado profundo, rede neural convolucional, sensoriamento 
                         semoto, bal{\~o}es cativos.",
             abstract = "The combination of remote sensing and computer vision technologies 
                         have been used to monitor large areas. In order to ensure their 
                         local security. This monitoring requires high temporal and spatial 
                         resolution sensors. Captive balloons with infrared and visible 
                         sensors, like Altave system, can perform a long-term day-night 
                         surveillance with viable cost in comparison with other aerial 
                         vehicles. Altave captive balloon system provides security of large 
                         areas by continuously monitoring people and vehicles, which is 
                         exhaustive for humans due to the large amount of data. To provide 
                         a more efficient and less arduous monitoring, this work developed 
                         a technology based on DL (Deep Learning), more specifically Faster 
                         R-CNN (Region-based Convolutional Neural Network - R-CNN), capable 
                         of detecting people and vehicles in images from captive balloons 
                         infrared and visible sensors. The advantage of CNN object 
                         detectors is their ability to generalize, which make them more 
                         efficient to deal with some captive balloon image features, such 
                         as objects on different points of view, positions and scales. This 
                         work used videos provided by Altave Company (from their captive 
                         balloon system) to manually build two databases containing about 
                         700 images each, one for the infrared and the other for the 
                         visible data. Since training a large CNN from scratch requires a 
                         large database and high computational power, two networks were 
                         fine-tuned from a Faster R-CNN, pre-trained on RGB (red, green, 
                         blue) images. The accuracy, mAP and AR metrics reached on the test 
                         datasets indicates the network high performance. The accuracy was 
                         87.1% for the infrared network and 86.1% for the visible. These 
                         high accuracies demonstrated that a Faster R-CNN pre-trained only 
                         in ordinary RGB images can be fine-tuned to work satisfactorily on 
                         3-band RGB visible remote sensing images and even on 1-band 
                         infrared images, as long as they are properly converted for 3-band 
                         images by repeating the infrared band on the three channels. The 
                         networks satisfactorily detected people and vehicle on images from 
                         Altave captive balloon system. They could detect multiple objects 
                         in an image with a variety of angles, positions, types (for 
                         vehicles), scales, and even with some noise and overlap. They also 
                         presented some mistaken detections caused by splitting parts of 
                         one object into two objects or merging two objects from the same 
                         class in one large object. These types of mistakes are not a 
                         relevant problem for surveillance because it is much more 
                         important to detect the objects than to locate or count them. 
                         RESUMO: A combina{\c{c}}{\~a}o de tecnologias de sensoriamento 
                         remoto com vis{\~a}o computacional tem sido utilizada para 
                         monitorar grandes {\'a}reas, de modo a garantir a 
                         seguran{\c{c}}a local. Esse monitoramento requer sensores de alta 
                         resolu{\c{c}}{\~a}o temporal e espacial. Os bal{\~o}es cativos 
                         com sensores vis{\'{\i}}vel e infravermelhos, como os da Altave, 
                         s{\~a}o capazes de realizar vigil{\^a}ncia diurna e noturna a 
                         longo prazo, com custo vi{\'a}vel comparado com outros 
                         ve{\'{\i}}culos a{\'e}reos. O sistema de bal{\~o}es cativos da 
                         Altave fornece seguran{\c{c}}a para grandes {\'a}reas por meio 
                         do monitorando cont{\'{\i}}nuo de pessoas e ve{\'{\i}}culos, 
                         fun{\c{c}}{\~a}o que {\'e} exaustiva para seres humanos devido 
                         {\`a} grande quantidade de dados. Com o objetivo de proporcionar 
                         um monitoramento mais eficiente e menos {\'a}rduo, neste trabalho 
                         foi desenvolvido uma tecnologia baseada em Aprendizado Profundo, 
                         mais especificamente Faster R-CNN (Region-based Convolutional 
                         Neural Network - R-CNN), capaz de detectar pessoas e 
                         ve{\'{\i}}culos em imagens de sensores infravermelho e 
                         vis{\'{\i}}vel de bal{\~o}es cativos. A vantagem dos detectores 
                         de objetos baseados em CNN {\'e} sua capacidade de 
                         generaliza{\c{c}}{\~a}o, tornando-os mais eficientes para 
                         algumas caracter{\'{\i}}sticas de imagem de bal{\~o}es cativos, 
                         como objetos em diferentes visadas, posi{\c{c}}{\~o}es e 
                         escalas. Este trabalho utilizou os v{\'{\i}}deos fornecidos pela 
                         empresa Altave (do sistema de bal{\~a}o cativo) para criar, 
                         manualmente, dois bancos de dados com cerca de 700 imagens, um 
                         para o infravermelho e a outro para o vis{\'{\i}}vel. Como o 
                         treinamento de uma CNN de grande complexidade desde o 
                         in{\'{\i}}cio requer um banco de dados grande e alto poder 
                         computacional, duas redes foram ajustadas a partir de uma rede 
                         Faster R-CNN pr{\'e}-treinada em imagens RGB (vermelha, verde, 
                         azul). A acur{\'a}cia, m{\'e}tricas mAP e AR alcan{\c{c}}adas 
                         nos conjuntos de dados de teste comprovam o alto desempenho das 
                         redes treinadas. A acur{\'a}cia do sistema foi de 87,1% para a 
                         rede infravermelha e de 86,1% para a {\'o}ptica. Essas altas 
                         acur{\'a}cias demonstraram que uma Faster R-CNN pr{\'e}-treinada 
                         apenas em imagens RGB comuns, pode ser ajustada para funcionar 
                         satisfatoriamente em imagens de sensoriamento remoto 
                         vis{\'{\i}}vel RGB de 3-bandas e at{\'e} mesmo em imagens 
                         infravermelhas de 1-banda, desde que sejam adequadamente 
                         convertidas para imagens 3-bandas atrav{\'e}s da 
                         repeti{\c{c}}{\~a}o desta banda nos tr{\^e}s canais. As redes 
                         constru{\'{\i}}das foram capazes de detectar satisfatoriamente 
                         pessoas e ve{\'{\i}}culos em imagens do sistema de bal{\~o}es 
                         cativos da Altave, sendo capaz de detectar m{\'u}ltiplos objetos 
                         em v{\'a}rios {\^a}ngulos, posi{\c{c}}{\~o}es, tipos (no caso 
                         de ve{\'{\i}}culos), escalas e at{\'e} mesmo com algum 
                         ru{\'{\i}}do e sobreposi{\c{c}}{\~a}o. Eles tamb{\'e}m 
                         apresentaram algumas detec{\c{c}}{\~o}es erradas causadas pela 
                         divis{\~a}o de partes de um objeto em dois objetos ou pela 
                         fus{\~a}o de dois objetos da mesma classe em um objeto maior. 
                         Esse tipo de erro n{\~a}o {\'e} relevante para o monitoramento 
                         com vigil{\^a}ncia devido ao fato de ser mais importante detectar 
                         objetos do que localiz{\'a}-los ou cont{\'a}-los.",
            committee = "K{\"o}rting, Thales Sehn (presidente) and Mura, Jos{\'e} Claudio 
                         (orientador) and Bins, Leonardo Sant'Anna (orientador) and 
                         S{\^e}cco, Ney Rafael",
         englishtitle = "Detec{\c{c}}{\~a}o de objetos em imagens de bal{\~a}o cativo 
                         utilizando deep learning",
             language = "en",
                pages = "99",
                  ibi = "8JMKD3MGP3W34R/428J8UE",
                  url = "http://urlib.net/ibi/8JMKD3MGP3W34R/428J8UE",
           targetfile = "publicacao.pdf",
        urlaccessdate = "28 abr. 2024"
}


Fechar